Vector-space topic models for detecting Alzheimers's disease

2017-03-06

Abstract

本文主要是想检测老年痴呆症，因为语义的缺失是一大症状。获得了96.8%的召回率。通过训练随机森林的分类器获得了0.74的F值（二元分类）。并且仅用了12个特征。

Introduction

AD在病情发展的过程中会出现语言的转变，并且这是可以检测得到的。这些变化包括句法复杂度的下降、找词困难和语义内容缺失，信息密度低（有语义的词在所有词中的比例），效率低。

结合上lexicosyntactic和acoustic features会获得81.9%的准确率。之前的文章没有会自动生成ICUs（information content unit)。这篇文章将会自动生成。

在正常的诊断过程中，医生会给出一幅图片，让患者口头描述，而每一幅图片都有对应的hsICUs（human-supplied information content units），根据患者描述中覆盖的hsICUs的数量来给它打分。

Methodology

Data

DementiaBank

自动生成ICUs

用recall来衡量自动生成的ICUs的性能。

首先训练一般的word vector。这里使用的是GloVe v1.2模型训练，使用的数据是Wikipedia 2014+Gigaword 5。分词使用NLTK v3.1。

只保留了名词和动词。

将出现在CT数据集中的词的词向量用上下文扩充，同样的出现在痴呆症数据集中的也用相同的方法扩充。于是各形成了不同的分布。
在这些分布上做k-means聚类，当k=10的时候实验结果最好，获得两个聚类模型Control cluster model和demential cluster model.

hsICUs的召回率

为了衡量自动生成的ICUs和人工标注的ICUs的匹配程度

为了衡量

Experiments

计算hsICUs的召回率，文章中定义了标注的hsICU的距离分数（不是简单的欧几里得距离）。有些不同的hsICUs会被关联到同一个类中。在C和D中各生成了10个类，然后这之间要做对齐。

实验证明，健康人说的话题，患者都有提到，而又一个患者的话题是健康人所没有提及到的，因此可以看到两个群体在所说的话题上区别很小。

Local context weighted vectors

$\phi_w = v_w+\sum_{i=-N}^{-1}\alpha_i \times v_i + \sum_{i=1}^{N} \alpha_i \times v_i$

对于两个数据集中的word vector需要进行扩充，使用的公式就是上面的这个公式，将前后若干个词按照距离权重加到中心词的general word vector上。从而形成新的word vector。作者用这个方法来说明词在两个数据集中的上下文是差不多的。于是在最后的方法中是没有讲上下文加入到词向量中的。

当使用扩展的特征集的时候，没有进行context扩展的词向量拥有更好的表现。

1	In our data, we also found that speakers with and without Alzheimer’s dis- ease generally discuss the same topics and in the same contexts

Classification

最后的分类的特征有

到C0-C9的距离
到D0-D9的距离
idea密度
idea效率

Blog

Papers